智能论文笔记

Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervised Semantic Segmentation

Zhen Zhao , Lihe Yang , Sifan Long , Jimin Pi , Luping Zhou , Jingdong Wang

分类：计算机视觉

2022-12-09

Recent studies on semi-supervised semantic segmentation (SSS) have seen fast progress. Despite their promising performance, current state-of-the-art methods tend to increasingly complex designs at the cost of introducing more network components and additional training procedures. Differently, in this work, we follow a standard teacher-student framework and propose AugSeg, a simple and clean approach that focuses mainly on data perturbations to boost the SSS performance. We argue that various data augmentations should be adjusted to better adapt to the semi-supervised scenarios instead of directly applying these techniques from supervised learning. Specifically, we adopt a simplified intensity-based augmentation that selects a random number of data transformations with uniformly sampling distortion strengths from a continuous space. Based on the estimated confidence of the model on different unlabeled samples, we also randomly inject labelled information to augment the unlabeled samples in an adaptive manner. Without bells and whistles, our simple AugSeg can readily achieve new state-of-the-art performance on SSS benchmarks under different partition protocols.

translated by 谷歌翻译

Semi-Supervised Representative Region Texture Extraction of Façade

Zhen Ni , Guitao Cao , Ye Duan

分类：计算机视觉

2022-12-05

Researches of analysis and parsing around fa\c{c}ades to enrich the 3D feature of fa\c{c}ade models by semantic information raised some attention in the community, whose main idea is to generate higher resolution components with similar shapes and textures to increase the overall resolution at the expense of reconstruction accuracy. While this approach works well for components like windows and doors, there is no solution for fa\c{c}ade background at present. In this paper, we introduce the concept of representative region texture, which can be used in the above modeling approach by tiling the representative texture around the fa\c{c}ade region, and propose a semi-supervised way to do representative region texture extraction from a fa\c{c}ade image. Our method does not require any additional labelled data to train as long as the semantic information is given, while a traditional end-to-end model requires plenty of data to increase its performance. Our method can extract texture from any repetitive images, not just fa\c{c}ade, which is not capable in an end-to-end model as it relies on the distribution of training set. Clustering with weighted distance is introduced to further increase the robustness to noise or an imprecise segmentation, and make the extracted texture have a higher resolution and more suitable for tiling. We verify our method on various fa\c{c}ade images, and the result shows our method has a significant performance improvement compared to only a random crop on fa\c{c}ade. We also demonstrate some application scenarios and proposed a fa\c{c}ade modeling workflow with the representative region texture, which has a better visual resolution for a regular fa\c{c}ade.

translated by 谷歌翻译

A Validation Approach to Over-parameterized Matrix and Image Recovery

Lijun Ding , Zhen Qin , Liwei Jiang , Jinxin Zhou , Zhihui Zhu

分类：机器学习 | (统计)机器学习

2022-09-21

在本文中，我们研究了从许多嘈杂的随机线性测量值中恢复低级别基质的问题。我们考虑以下设置的设置，即基地矩阵的等级是未知的，并使用矩阵变量的过度指定的分组表示，其中全局最佳解决方案过拟合，并且与基础基础真相不符。然后，我们使用梯度下降和小的随机初始化解决了相关的非凸问题。我们表明，只要测量运算符能够满足受限的等轴测特性（RIP），其等级参数缩放具有地面真相矩阵等级，而不是使用过度指定的矩阵变量进行缩放，那么梯度下降迭代就会在特定的轨迹上朝向地面。 - 正确矩阵并在适当停止时获得了几乎信息理论上的最佳恢复。然后，我们提出了一种基于共同持有方法的有效的早期停止策略，并表明它可以检测到几乎最佳的估计量。此外，实验表明，所提出的验证方法也可以有效地用于图像恢复，并具有深层图像先验，从而使图像过度参与了深层网络。

translated by 谷歌翻译

Landmark Tracking in Liver US images Using Cascade Convolutional Neural Networks with Long Short-Term Memory

Yupei Zhang , Xianjin Dai , Zhen Tian , Yang Lei , Jacob F. Wynne , Pretesh Patel , Yue Chen , Tian Liu , Xiaofeng Yang

分类：计算机视觉

2022-09-14

这项研究提出了一种基于深度学习的超声（US）图像引导放射疗法的跟踪方法。拟议的级联深度学习模型由注意力网络，基于掩模区域的卷积神经网络（Mask R-CNN）和长期短期记忆（LSTM）网络组成。注意网络从美国图像到可疑的具有里程碑意义的运动区域，以减少搜索区域。然后，面膜R-CNN在减少区域中产生多个利益区域（ROI）建议，并通过三个网络头确定拟议的地标：边界框回归，提案分类和地标分段。 LSTM网络对连续的图像框架之间的时间关系建模，以进行边界框回归和建议分类。为了合并最终建议，根据顺序框架之间的相似性设计选择方法。该方法在肝脏美国跟踪数据集中测试了医疗图像计算和计算机辅助干预措施（MICCAI）2015年的挑战，其中有三位经验丰富的观察者注释了地标，以获得其平均位置。在24个鉴于我们具有地面真相的序列的24个序列上，所有地标的平均跟踪误差为0.65 +/- 0.56毫米，所有地标的误差均在2 mm之内。我们进一步测试了从测试数据集中的69个地标上提出的模型，该模型具有与训练模式相似的图像模式，从而导致平均跟踪误差为0.94 +/- 0.83 mm。我们的实验结果表明，我们提出的方法使用US图像跟踪肝解剖学地标的可行性和准确性，为放射治疗期间的主动运动管理提供了潜在的解决方案。

translated by 谷歌翻译

ASpanFormer: Detector-Free Image Matching with Adaptive Span Transformer

Hongkai Chen , Zixin Luo , Lei Zhou , Yurun Tian , Mingmin Zhen , Tian Fang , David Mckinnon , Yanghai Tsin , Long Quan

分类：计算机视觉

2022-08-30

在图像之间生成健壮和可靠的对应关系是多种应用程序的基本任务。为了在全球和局部粒度上捕获上下文，我们提出了Aspanformer，这是一种基于变压器的无探测器匹配器，建立在层次的注意力结构上，采用了一种新颖的注意操作，能够以自适应方式调整注意力跨度。为了实现这一目标，首先，在每个跨注意阶段都会回归流图，以定位搜索区域的中心。接下来，在中心周围生成一个采样网格，其大小不是根据固定的经验配置为固定的，而是根据与流图一起估计的像素不确定性的自适应计算。最后，在派生区域内的两个图像上计算注意力，称为注意跨度。通过这些方式，我们不仅能够维持长期依赖性，而且能够在高相关性的像素之间获得细粒度的注意，从而补偿基本位置和匹配任务中的零件平滑度。在广泛的评估基准上的最新准确性验证了我们方法的强匹配能力。

translated by 谷歌翻译

HTML版本

Explicit Image Caption Editing

Zhen Wang , Long Chen , Wenbo Ma , Guangxing Han , Yulei Niu , Jian Shao , Jun Xiao

分类：计算机视觉

2022-07-20

给定图像和参考字幕，图像标题编辑任务旨在纠正未对准错误并生成精制的字幕。但是，所有现有的字幕编辑作品都是隐式模型，即它们直接生成精制字幕而无需与参考标题明确连接。在本文中，我们介绍了一项新任务：显式字幕编辑（ECE）。 ECE模型明确生成了一系列编辑操作，此编辑操作序列可以将参考字幕转换为精制的字幕。与隐式编辑相比，ECE具有多个优点：1）可解释：它可以追踪整个编辑路径。 2）编辑有效：它只需要修改几个单词。 3）像人类一样：它类似于人类执行字幕编辑的方式，并试图保持原始句子结构。为了解决这项新任务，我们提出了第一个ECE模型：Tiger。 Tiger是一种非自动回形变压器的模型，由三个模块组成：Tagger_del，Tagger_Add和Inserter。具体而言，Tagger_del决定是否应该保留每个单词，Tagger_add决定添加新单词的位置，而Inserster预测了添加的特定单词。为了进一步促进ECE研究，我们分别重新组织了两个现有数据集，分别为Coco-EE和FlickR30K-EE，提出了两个新的ECE基准。两个基准上的大量消融都证明了老虎的有效性。

translated by 谷歌翻译

Automatic Generation of Product-Image Sequence in E-commerce

Xiaochuan Fan , Chi Zhang , Yong Yang , Yue Shang , Xueying Zhang , Zhen He , Yun Xiao , Bo Long , Lingfei Wu

分类：计算机视觉

2022-06-26

产品图像对于在电子商务平台中提供理想的用户体验至关重要。对于拥有数十亿种产品的平台，手动挑选和组织合格的图像非常耗时且耗尽劳动力。此外，要生成/选择的产品图像需要遵守众多且复杂的图像规则。为了解决这些挑战，在本文中，我们提出了一个新的学习框架，以便在电子商务中自动生成产品图像序列（AGPI）。为此，我们提出了一个多模式统一的图像序列分类器（MUISC），该分类器能够通过学习同时检测所有规则违规的类别。 MUISC利用文本审查反馈作为额外的培训目标，并利用产品文本描述提供额外的语义信息。根据离线评估，我们表明拟议的MUISC显着优于各种基线。除MUISC外，我们还将其他一些重要的模块集成在提出的框架中，例如主图像选择，不合格的内容检测和图像重复数据删除。借助所有这些模块，我们的框架在JD.com推荐平台中有效，有效地工作。到2021年12月，我们的AGPIS框架为约150万种产品生成了高标准图像，并获得了13.6％的拒绝率。

translated by 谷歌翻译

Confidence Propagation Cluster: Unleash Full Potential of Object Detectors

Yichun Shen* , Wanli Jiang* , Zhen Xu , Rundong Li , Junghyun Kwon , Siyi Li

分类：计算机视觉

2021-12-01

大多数物体检测方法通过使用非最大抑制（NMS）及其改进版本，如Soft-NMS获取对象，这是一个很长的历史记录，以删除冗余边界框。我们从三个方面挑战那些基于NMS的方法：1）具有最高置信度值的边界框可能不是具有与地面真理盒最大的重叠的真正积极。 2）冗余盒不仅需要抑制，而且对于那些真正的阳性也需要置信度。 3）不需要置信度值排序候选盒，以便可以实现完整的并行性。在本文中，通过信仰传播（BP）的启发，我们提出了置信沟集团（CP簇）来替换基于NMS的方法，这是完全并行化的，以及精度更好。在CP-Cluster中，我们借用BP的消息传递机制来惩罚冗余框，并以迭代方式同时增强真正的阳性直到收敛。我们通过将其应用于各种主流探测器，例如FasterRCNN，SSD，FCO，YOLOV3，YOLOV5，CENTERENET等实验，验证了CP-Cluster的有效性。在MS COCO上的实验表明，我们的插头和游戏方法没有再培训探测器，都能够稳步与基于NMS的方法相比，将分别从0.2到1.9的透明边距提高所有最先进模型的平均地图。源代码在https://github.com/shenyi0220/cp-cluster中获得

translated by 谷歌翻译

URIR: Recommendation algorithm of user RNN encoder and item encoder based on knowledge graph

Na zhao , Zhen Long , Zhi-Dan Zhao , Jian Wang

分类：人工智能

2021-11-01

由于许多信息，用户很难找到它们在许多选择中感兴趣的内容。为了提高用户的经验，推荐系统已广泛用于音乐推荐，电影建议，网上购物和其他场景。最近，知识图（KG）已被证明是提高推荐系统性能的有效工具。但是，在应用知识图表中提出建议的巨大挑战是如何使用知识图来获取更好的用户代码和项目代码。为了响应这个问题，本研究提出了一种基于知识图（URIR）的用户经常性神经网络（RNN）编码器和项目编码器推荐算法。该研究通过捕获高级邻居信息来生成项目的表示向量，并应用RNN和项目的表示向量来编码用户以生成用户的表示向量，然后对用户的表示向量和项目执行内部产品操作。表示向量获得用户与项目互动的概率。三个真实数据集上的数值实验表明，URIR对诸如AUC，精密，召回和MRR等指标中的最先进算法的卓越性能。这意味着URIR可以有效地使用知识图来获得更好的用户代码和项目代码，从而获得更好的推荐结果。

translated by 谷歌翻译

PC$^2$-PU: Patch Correlation and Point Correlation for Effective Point Cloud Upsampling

Chen Long , Wenxiao Zhang , Ruihui Li , Hao Wang , Zhen Dong , Bisheng Yang

分类：计算机视觉

2021-09-20

点云上采样是为了使从3D传感器获得的稀疏点集致密，从而为基础表面提供了密度的表示。现有方法将输入点划分为小贴片，并分别对每个贴片进行整理，但是，忽略了补丁之间的全局空间一致性。在本文中，我们提出了一种新颖的方法PC $^2 $ -PU，该方法探讨了贴片对点和点对点相关性，以实现更有效和强大的点云上采样。具体而言，我们的网络有两个吸引人的设计：（i）我们将相邻的补丁作为补充输入来补偿单个补丁中的损失结构信息，并引入一个补丁相关模块以捕获补丁之间的差异和相似性。（ii）在增强每个贴片的几何形状后，我们进一步引入了一个点相关模块，以揭示每个贴片内部的关系以维持局部空间一致性。对合成和真实扫描数据集进行的广泛实验表明，我们的方法超过了以前的上采样方法，尤其是在嘈杂的输入中。代码和数据位于\ url {https://github.com/chenlongwhu/pc2-pu.git}。

translated by 谷歌翻译